4 research outputs found

    Deep Test to Transformers Architecture in Named Entity Recognition

    Get PDF
    Named Entity Recognition is a task of Natural Language Processing, which aims to extract and classify named entities such as ”Queen of England”. Depending on the objective of the extraction, the entities can be classified with different labels. These labels usually are Person, Organization, and Location but can be extended and include sub-entities like cars, countries, etc., or very different such as when the scope of the classification is biological, and the entities are Genes or Virus. These entities are extracted from raw text, which may be a well-structured scientific document or an internet post, and written in any language. These constraints create a considerable challenge to create an independent domain model. So, most of the authors have focused on English documents, which is the most explored language and contain more labeled data, which requires a significant amount of human resources. More recently, approaches are focused on Transformers architecture models, which may take up to days to train and consume millions of labeled entities. My approach is a statistical one, which means it will be language-independent while still requiring much computation power. This model will combine multiple techniques such as Bag of Words, Steeming, and Word2Vec to compute his features. Then, it will be compared with two transformer-based models, that although they have similar architecture, they have respectful differences. The three models will be tested in multiple datasets, each with its challenges, to conduct deep research on each model’s strengths and weaknesses. After a tough evaluation process the three models achieved performances of over 90% in datasets with high number of samples. The biggest challenge were the datasets with lower data, where the Pipeline achieved better performances than the transformer-based models.Named Entity Recognition é uma tarefa no Processamento de Língua Natural, que tem como objectivo extrair e classificar entidades como ”Rainha da Inglaterra”. Dependendo do objectivo da extração, as entidades podem ser classificadas em diferentes categorias. As categorias mais comuns são: Pessoa, Organização e Local, mas podem ser estendidas e incluir sub-entidades como carros, países, entre outros. Existem ainda categorias muito diferentes, por exemplo, quando o texto é do domínio da Biologia e as categorias são Genes ou Vírus. Essas entidades são extraídas de diferentes tipos de texto como documentos científicos estruturados corretamente ou um post da internet, podendo ser escritos em qualquer idioma. Estes constrangimentos criam um enorme desafio, sendo muito ambicioso criar um modelo independente do idioma. Acontece que a maioria dos autores está focado em documentos em inglês, uma vez que este é o idioma mais explorado e aquele que contém mais dados rotulados. Para obter estes dados são necessários recursos humanos capazes de os classificar à mão. Mais recentemente, as abordagens estão focadas em modelos de Deep Learning que podem levar dias para treinar e consomem milhões de entidades rotuladas. A minha abordagem é uma abordagem estatística, o que significa que será independente da língua, embora ainda necessite de muito poder de computação. Este modelo combinará múltiplas técnicas tais como Bag of Words, Steeming, e Word2Vec para caracterizar os dados. De seguida, será comparado com dois modelos baseados em transformers, que embora tenham uma arquitectura semelhante, têm diferenças significativas. Os três modelos serão testados em múltiplos conjuntos de dados, cada um com os seus desafios, para conduzir uma pesquisa profunda sobre os pontos fortes e fracos de cada modelo. Após uma extenso processo de avaliação os três modelos obtiveram métricas superiores a 90% em datasets com grandes quantidades de dados. O maior desafio foram os datasets com menos dados onde o Pipeline obteve métricas superiores aos modelos baseados em transformers

    Encapsulação de aminoácidos hidrolisados em lipossomas

    Get PDF
    A aquacultura é uma área em expansão devido ao aumento do consumo de peixe nos últimos anos sendo que para os estágios iniciais do desenvolvimento larvar é utilizado alimento vivo, como Artémia. Nos últimos anos tem-se tentado obter dietas inertes devido às limitações inerentes à utilização de alimento vivo. Estas dietas apresentam na sua constituição uma componente muito hidrossolúvel que facilmente se perde por lixiviação, constituída por compostos de baixa massa molecular, mas que são determinantes para o crescimento das larvas. O objetivo deste trabalho foi utilizar inicialmente os lipossomas e posteriormente as micropartículas de quitosano (CS) como veículos para tentar formular microdietas para a alimentação de larvas de peixe. Para tal, foram encapsulados o hidrolisado de proteína de peixe (CPSP 90®) e um mistura de vitaminas, oligo-elementos e minerais (Pré-Mix PVO-40®). Os resultados obtidos indicam que os lipossomas apresentam tamanhos entre os 150-600 nm, dependendo do número de ciclos de congelação/aquecimento. Embora se tenham obtido eficiências de encapsulação de CPSP na ordem dos 90-95%, concluiu-se que esta tecnologia não é rentável para a produção de microdietas para larvas de peixe devido à reduzida capacidade de produção diária. Desta forma, desenvolveu-se um segundo sistema, as micropartículas de CS, que evidenciaram tamanhos de 2.7 - 8.7 μm, dependendo da percentagem de CS e CPSP:PM e uma eficiência de encapsulação de 95%. A formulação CS:CPSP:PM 2:6:0.5 apresentou a libertação mais baixa (40% em 30-60 min), permitindo que os restantes 60% estejam disponíveis para ingestão. Foi observado também que o perfil de libertação depende da quantidade de polímero presente nas micropartículas. A caracterização dos dois tipos de sistema estudados indica que não podem ser utilizadas como formulação final para a alimentação de larvas de peixe devido ao seu tamanho, mas que têm o perfil ideal para fazer parte de uma sistema complexo, em que exista uma segunda micropartícula externa

    Estudo da reversão das alteracções funcionais da actina após processo de oxidação/redução

    Get PDF
    Relatório de estágio da licenciatura, Bioquímica, Faculdade de Ciência e Tecnologia da Universidade do Algarve, 2007A actina é uma das proteínas mais susceptíveis à oxidação através de espécies reactivas de oxigénio (ROS) e de espécies reactivas de nitrogénio (RNS). Uma da espécie que oxida a actina é o peroxinitrito (ONOO-), provocando oxidação das cisteínas e das metioninas

    Vitamin D-related polymorphisms and vitamin D levels as risk biomarkers of COVID-19 disease severity

    Get PDF
    © The Author(s) 2021. Open Access This article is licensed under a Creative Commons Attribution 4.0 International License, which permits use, sharing, adaptation, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if changes were made. The images or other third party material in this article are included in the article's Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article's Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommons.org/licenses/by/4.0/.Vitamin D is a fundamental regulator of host defences by activating genes related to innate and adaptive immunity. Previous research shows a correlation between the levels of vitamin D in patients infected with SARS-CoV-2 and the degree of disease severity. This work investigates the impact of the genetic background related to vitamin D pathways on COVID-19 severity. For the first time, the Portuguese population was characterized regarding the prevalence of high impact variants in genes associated with the vitamin D pathways. This study enrolled 517 patients admitted to two tertiary Portuguese hospitals. The serum concentration of 25 (OH)D, was measured in the hospital at the time of patient admission. Genetic variants, 18 variants, in the genes AMDHD1, CYP2R1, CYP24A1, DHCR7, GC, SEC23A, and VDR were analysed. The results show that polymorphisms in the vitamin D binding protein encoded by the GC gene are related to the infection severity (p = 0.005). There is an association between vitamin D polygenic risk score and the serum concentration of 25 (OH)D (p = 0.04). There is an association between 25 (OH)D levels and the survival and fatal outcomes (p = 1.5e-4). The Portuguese population has a higher prevalence of the DHCR7 RS12785878 variant when compared with its prevalence in the European population (19% versus 10%). This study shows a genetic susceptibility for vitamin D deficiency that might explain higher severity degrees in COVID-19 patients. These results reinforce the relevance of personalized strategies in the context of viral diseases.This project was supported by the “Fundação para a Ciência e Tecnologia”, program “Research 4 Covid-19 Apoio especial a projetos de implementação rápida para soluções inovadoras de resposta à pandemia de COVID-19”. It was also partially supported by each institution.info:eu-repo/semantics/publishedVersio
    corecore